0

Я хочу проанализировать данные, которые присутствуют в неструктурированном текстовом файле. , но до этого я хочу, чтобы все содержимое в этом текстовом файле хранилось в одном поле. Таким образом, я могу проанализировать данные путем извлечения из поля.Как импортировать содержимое/данные в текстовый файл с помощью одного поля с помощью Pentaho Kettle?

Я планирую использовать Javascript Измененные значения для разбора.

Примечание:
Файл, о котором я говорю, не является нормальным текстом или файлом CSV. Это прямой файл, который получен от Tandem Server.
например: (Содержание в текстовом файле)
'| 08-Jul-16 | 1 | 5996 | W2266001 | BODHAN ROADNIZAMABAD | FNFA | 5211080013438979 | ***************** | 0220 | 01 | 7 | 07-Jul-16 | 08-Jul-16 | 23: 14: 23 | +1043 | 000 | 00 | 541100 | 30000 | 0000 | PRO1 | FNFA | 00000403362 | 356 | 356 | 0 | NIZ-220 | Низамабад | TS | В || 08-июль-16 | 1 | '

ответ

0

Для этого вы можете использовать шаг «Загрузить файл в памяти».

Он делает именно то, что вы хотите, читайте файлы (файлы) в одном поле для каждого файла без разбора. Вместо указания разделителя вы вручную вводите данные поля. Выберите «содержимое файла» в качестве элемента и «строка» в качестве типа.

Я видел ваш другой вопрос. Если ваш файл имеет размер 1,7 ГБ, он, вероятно, не загружается в одну строку без проблем с памятью.

я тестировал с помощью:

transformation steps to split unstructured file

  1. Загрузить файл в памяти, как описано выше
  2. Split поля строк, используя "\ | DR \ |" в качестве разделителя регулярных выражений
  3. Выберите значения, чтобы избавиться от исходного огромного поля
  4. Разделить поля, используя разделитель "|" в список строковых полей (столько, сколько ваши записи могут иметь максимум).

Это дает несколько полезных записей, но вам может потребоваться больше обработки, чтобы идентифицировать недостающие столбцы в некоторых записях и выправить их.

+0

Поскольку в файле нет заголовка и нижнего колонтитула, его содержимое не отображается. –

+0

Вы можете вручную определить поле на вкладке полей, установить элемент в «содержимое файла» и тип в строку. – Cyrus

+0

Не могли бы вы еще раз проверить? Я изменил содержимое файла на строку и размер файла до int. Я не мог найти никакой возможности установить поле ** Вручную **. к вашему уведомлению, когда я пытаюсь просмотреть содержимое с помощью «предварительных строк», никакие строки, найденные для предварительного просмотра, не отображаются. –

 Смежные вопросы

  • Нет связанных вопросов^_^