Ну, вот и снова пришлось написать что-то набившее оскомину. На этот раз - очередной парсер для CLOB-переменной, содержащей CSV данные, сохраненные в формате Excel. Порылся в stackoverflow, ничего толкового не нашел, поэтому понял, что быстрее написать самому. Парсит достаточно большие файлы. У меня есть образец на 9Мб который достаточно быстро обрабатывается, разумеется без вставки в БД, просто с выводом в output. Потом, подумал, что надо бы сделать пример и потом самому к нему обращаться при необходимости, чтобы не рыться в каталогах.
Итак,
- входное значение указано в CLOB-переменной c.
- в качестве разделителя значений используется ";"
- символ экранирования многострочных значений - двойная кавычка,
- символ двойной кавычки - двойная двойная кавычка
- cимвол новой строки - 0x0A (10)
- результат выводится в output буфер
declare
-- CLOB value for tests, separator is semicolon, has been copied from file saved as Windows-1251 CSV worksheet by Excel 2019
c clob := '"1";"Serge;
George
Galina";3
""2"";Tatiana;3
3;"Nikolas
""Maxim""
Lisa";3
4;;3
5;"Daria;";3
6;""Leo"";3
7;Alexey;""3""
8;Ksenia;"3"';
-- special characters
separator constant char(1) := ';'; -- semicolon separator
quote_char constant char(1) := '"'; -- quoting character
new_row constant char(1) := chr(10); -- new row character
-- output cell value as a comment
procedure cell_out(prow in number, pcol in number, pval in varchar2) is
begin
dbms_output.put_line('Cell ('||prow||', '||pcol || ') = '|| nvl(replace(pval,new_row,'<\n>'), '<null>'));
end;
-- CSV parser
procedure parse_csv_clob (p_clob in out nocopy clob) is
offset number := 1;
amount number := 1;
total number := nvl(dbms_lob.getlength(p_clob),0);
read_buffer varchar2(1);
read_buffer1 varchar2(1);
cell_buffer varchar2(32767);
row_index pls_integer := 1;
col_index pls_integer := 1;
quoting boolean := false;
begin
if ( dbms_lob.isopen(p_clob) != 1 ) then dbms_lob.open(p_clob, 0); end if;
loop
exit when ( offset > total );
dbms_lob.read(p_clob, amount, offset, read_buffer); -- read the symbol
if read_buffer = new_row and not quoting then -- new row
cell_out(row_index, col_index, cell_buffer);
row_index := row_index + 1;
col_index := 1;
cell_buffer := null;
elsif read_buffer = separator and not quoting then -- new cell
cell_out(row_index, col_index, cell_buffer);
cell_buffer := null;
col_index := col_index + 1;
elsif read_buffer = quote_char then -- quoted value or a escaped double quote symbol (if next symbol is the same)
if offset < total then dbms_lob.read(p_clob, amount, offset + 1, read_buffer1); else read_buffer1 := null; end if;
if read_buffer1 is null or read_buffer1 != quote_char then quoting := not quoting;
else
cell_buffer := cell_buffer || quote_char;
offset := offset + 1;
end if;
else -- add any other symbols to a current cell value
cell_buffer := cell_buffer || read_buffer;
end if;
offset := offset + 1;
if (offset > total and not quoting) then
if length(cell_buffer) > 0 then
cell_out(row_index, col_index, cell_buffer);
end if;
end if;
end loop;
if ( dbms_lob.isopen(p_clob) = 1 ) then dbms_lob.close(p_clob); end if;
if quoting then raise_application_error(-20001, 'Closing quote character has not been found.'); end if;
exception
when others then
dbms_output.put_line('CSV-PARSER-ERROR: '||sqlerrm);
end;
begin
parse_csv_clob(c);
end;
-- CLOB value for tests, separator is semicolon, has been copied from file saved as Windows-1251 CSV worksheet by Excel 2019
c clob := '"1";"Serge;
George
Galina";3
""2"";Tatiana;3
3;"Nikolas
""Maxim""
Lisa";3
4;;3
5;"Daria;";3
6;""Leo"";3
7;Alexey;""3""
8;Ksenia;"3"';
-- special characters
separator constant char(1) := ';'; -- semicolon separator
quote_char constant char(1) := '"'; -- quoting character
new_row constant char(1) := chr(10); -- new row character
-- output cell value as a comment
procedure cell_out(prow in number, pcol in number, pval in varchar2) is
begin
dbms_output.put_line('Cell ('||prow||', '||pcol || ') = '|| nvl(replace(pval,new_row,'<\n>'), '<null>'));
end;
-- CSV parser
procedure parse_csv_clob (p_clob in out nocopy clob) is
offset number := 1;
amount number := 1;
total number := nvl(dbms_lob.getlength(p_clob),0);
read_buffer varchar2(1);
read_buffer1 varchar2(1);
cell_buffer varchar2(32767);
row_index pls_integer := 1;
col_index pls_integer := 1;
quoting boolean := false;
begin
if ( dbms_lob.isopen(p_clob) != 1 ) then dbms_lob.open(p_clob, 0); end if;
loop
exit when ( offset > total );
dbms_lob.read(p_clob, amount, offset, read_buffer); -- read the symbol
if read_buffer = new_row and not quoting then -- new row
cell_out(row_index, col_index, cell_buffer);
row_index := row_index + 1;
col_index := 1;
cell_buffer := null;
elsif read_buffer = separator and not quoting then -- new cell
cell_out(row_index, col_index, cell_buffer);
cell_buffer := null;
col_index := col_index + 1;
elsif read_buffer = quote_char then -- quoted value or a escaped double quote symbol (if next symbol is the same)
if offset < total then dbms_lob.read(p_clob, amount, offset + 1, read_buffer1); else read_buffer1 := null; end if;
if read_buffer1 is null or read_buffer1 != quote_char then quoting := not quoting;
else
cell_buffer := cell_buffer || quote_char;
offset := offset + 1;
end if;
else -- add any other symbols to a current cell value
cell_buffer := cell_buffer || read_buffer;
end if;
offset := offset + 1;
if (offset > total and not quoting) then
if length(cell_buffer) > 0 then
cell_out(row_index, col_index, cell_buffer);
end if;
end if;
end loop;
if ( dbms_lob.isopen(p_clob) = 1 ) then dbms_lob.close(p_clob); end if;
if quoting then raise_application_error(-20001, 'Closing quote character has not been found.'); end if;
exception
when others then
dbms_output.put_line('CSV-PARSER-ERROR: '||sqlerrm);
end;
begin
parse_csv_clob(c);
end;
Комментариев нет:
Отправить комментарий